확률과 통계: 불확실성의 과학: 통계량을 무작위 변수로 보는 시각: 표본 분포

통계적 추론에서는 개별 데이터 포인트를 관찰하는 것에서 시작해, 표본 시퀀스에 대한 함수적 사상 $Y = h(X_1, X_2, \dots, X_n)$으로 정의되는 **통계량**을 분석하게 됩니다. 표본이 무작위 변수들로 구성되어 있으므로 통계량 자체도 무작위 변수이며, 그 확률 법칙은 **표본 분포**(sampling distribution)라고 알려져 있습니다.

통계량을 사상으로 보는 시각

통계량은 공식적으로 함수 $h: \mathbb{R}^n \to \mathbb{R}$로 정의됩니다. 통계량이 집합 $B$에 속할 확률은 전이상(전이역상, pre-image)을 통해 정의합니다:

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

i.i.d. 기반

i.i.d. (독립적이고 동일한 분포를 가진) 무작위 변수들의 표본에 대해 특정 샘플 포인트 $(x_1, \dots, x_n)$의 결합 확률은 각각의 마진 확률의 곱입니다: $p(x_1)p(x_2)\dots p(x_n)$. 이 곱은 통계량이 특정 값을 취할 때의 총 확률을 계산할 때 각 점의 가중치 역할을 합니다.

예제 4.1.1: 기하 평균

확률 질량 함수가 $p_X(1) = 1/2$, $p_X(2) = 1/4$, $p_X(3) = 1/4$인 이산 모집단을 고려해 봅시다. 우리는 크기 $n=2$의 표본($X_1, X_2$)을 추출하고 통계량을 기하 평균 $Y_2 = (X_1 X_2)^{1/2}$로 정의합니다.

통계량 $Y_2$의 분포를 구하기 위해, 가능한 9개의 모든 쌍 $(X_1, X_2)$을 나열하고, 각각의 결합 확률과 결과값 $Y_2$를 계산합니다:

쌍 $(x_1, x_2)$	확률 $P(x_1)P(x_2)$	$Y = \sqrt{x_1 x_2}$
(1, 1)	1/4	1.000
(1, 2), (2, 1)	1/8 + 1/8 = 1/4	1.414
(1, 3), (3, 1)	1/8 + 1/8 = 1/4	1.732
(2, 2)	1/16	2.000
(2, 3), (3, 2)	1/16 + 1/16 = 1/8	2.449
(3, 3)	1/16	3.000

정확한 분포와 귐사 분포

중앙극한정리(CLT)와 같은 극한 정리로 넘어가기 전에, "정확한 분포"를 완전히 이해해야 합니다. 이는 작은 유한한 $n$에 대해 통계량의 구체적인 확률 질량 또는 밀도 함수를 계산하는 것을 의미합니다. 해석적 형태가 다루기 어려워지면, **몬테카르로 근사**(Monte Carlo approximations)와 같은 수치 시뮬레이션을 사용하게 됩니다.

🎯 핵심 원리

표본 분포란 어떤 i.i.d. 시퀀스에 대한 함수에 해당하는 무작위 변수의 분포를 의미합니다. 이는 원시 데이터와 과학적 추론 사이의 연결고리입니다.

질문 1

예제 4.1.1의 분포로부터 독립적이고 동일하게 분포된 $X_1, X_2, X_3$가 있다고 가정할 때, 기하 평균 $Y_3 = (X_1 X_2 X_3)^{1/3}$가 1일 확률은 얼마입니까?

$1/2$

$1/4$

$1/8$

$1/27$

질문 2

공정한 육면체 주사위를 독립적으로 $n = 2$번 던졌을 때, 표본 평균이 정확히 1.5일 확률은 무엇입니까?

$1/36$

$2/36$

$3/36$

$1/6$

질문 3

비율이 $p$인 칩이 0으로, $1-p$인 칩이 1로 표시된 용기에서 $n=2$개의 표본을 복원 추출했을 때, 표본 평균이 0.5일 확률은 얼마입니까?

$p^2$

$(1-p)^2$

$2p(1-p)$

$p(1-p)$

질문 4

어떤 수학적 구조가 통계량 $h$가 특정 구간 $B$에 들어가는 모든 샘플 포인트 $(x_1, \dots, x_n)$의 집합을 나타내나요?

결합 밀도 함수

전이상 $h^{-1}B$

모멘트 생성 함수

기대값 사상

질문 5

몬테카르로 방법으로 적분 $\int_{-\infty}^{\infty} \cos^2(x)e^{-x^2/2} dx$를 근사할 때, 계산을 단순화하기 위해 어떤 분포에서 샘플을 추출해야 합니까?

균일분포(0, 1)

푸아송분포(1)

표준 정규분포 $N(0, 1)$

지수분포(1)